Paper link | Note link | Code link | NeurIPS 2023
本研究使用 Semantic IDs 來檢索用戶的推薦項目。
本研究不使用查詢嵌入來檢索前幾名候選項目。
相反,它為每個項目建立一個 Semantic IDs,並使用基於 Transformer 的 seq2seq 模型來預測用戶將與之互動的下一個項目的 Semantic IDs。

通常,推薦系統使用檢索和排序策略來幫助用戶發現感興趣的內容:
這篇論文提出了「Transformer Index for GEnerative Recommenders(TIGER)」,這是一個生成式檢索型推薦框架,為每個項目分配語義ID,並訓練檢索模型來預測給定用戶可能會互動的項目的 Semantic ID。
TIGER 提供了兩個主要優勢:

Semantic ID 設定為長度為
的代碼字元組。
每個代碼字來自不同的 codebook。
因此,Semantic ID 可以唯一地表示的項目數量等於 codebook 大小的乘積。

生成 Semantic ID 的過程從獲得來自預訓練 encoder 的語義嵌入
開始。
RQ-VAE 學習潛在表示
。
在第
級(
),初始殘差定義為
。
對於第
級,過程重複
次:
,都有一個 codebook
,其中
是 codebook 的大小。
被表示為
。注意,他們選擇對每個
級別使用大小為
的獨立 codebook。
然後,計算量化表示
,並將其傳遞給 decoder 以重建輸入
。
RQ-VAE 損失函數聯合訓練 encoder、decoder 和 codebook:

其中

且

推薦系統嘗試從序列
中預測下一個項目
。
本研究改為直接預測下一個項目的 Semantic ID。
給定一個項目序列
,預測
的本研究改為直接預測下一個項目的 Semantic ID,即
。
他們在來自 Amazon Product Reviews dataset 的三個公共實際基準上測試了他們的框架。
在這裡,他們使用了三個類別:“美容”,“體育和戶外”以及“玩具和遊戲”。
對於語義 encoder,使用了預訓練的 Sentence-T5。
以下是顯示序列推薦性能比較的表格:
